<html>
    <head>
        <title>网页自动分类技术概念分析</title>
        <meta charset="utf-8">
        <style>
            *{
                font-family: "宋体";
            }
        </style>
    </head>
    <body>
        <div align="center">
            <h1>网页自动分类技术概念分析</h1>
            <br>
            <p>张 莉</p>
            <p>(西南科技大学 ,四川 绵阳 621000)</p>
        </div>
            <p><strong>摘 要</strong>: 首先介绍和分析自动分类的种类和作用 。然后在分析网页特征的基础上介绍两种常用的网页识
                别方法并研究其在网页分类应用中的现状 ,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣 ,
                分析各种分类算法在网页分类的适用性并研究其发展和改进 ,简述分类评价指标 。最后分析现有系统的特点 。
            <p><strong>关键词</strong>: 自动分类 ;网页识别 ;特征提取 ;分类算法
            <p><strong>中图分类号</strong> : TP393 <strong>文献标识码</strong> : A <strong>文章编号</strong> : (2007) 02 - 0058 - 04
        <div align="center">
            <h1>Analysis of Web Documents Classification Techniques</h1>
            <br>
            <p>ZHAN G Li</p>
            <p>(Southwest University of Science and Technology, Mianyang Sichuan 621000)</p>
        </div>
        <p><strong>Abstract</strong>: The kinds and functions of automatic classification are analyzed. After analyzing the fea2
            tures of web pages, two kinds of recognition m ethods are introduced and the app lication on web classi2
            fication is studied. Several kinds of feature selection methods are listed and the effects of app lication
            on web classification are compared. The app licability on web of classifying algorithm s are analyzed
            and the development and imp rovement of algorithm s are discussed. Evaluating indicators are listed.
            The paper ends w ith the analysis of the system ’s characteristics.
        <p><strong>Key words</strong>: autom atic classification; recognition of web pages; feature selection; classifying algo2
            rithms

        <p>互联网 飞速发 展 , 网页 数据量急 剧增长 ,
            据中国 互 联 网 信 息 中 心 2007 年 1 月 发 布 的
            《中国互联网 络发展状 况 统 计 报 告 》, 中 国 网
            页总 数 有 44. 7 亿 个 , 与 去 年 同 期 相 比 增 加
            20. 7 亿个 ,增长率为 86. 3 % ,人们已经步入一
            个信息资源丰富的时代 。如何有效查找到所
            需资源成为人们关注的问题 ,搜索引擎应运而
            生 。搜索引擎是除收发邮件 、浏览新闻之外的
            第三大 网 民 经 常 使 用 的 网 络 服 务 , 51. 5 %的
            网民经常使用搜索引擎 。
            <p>搜索引擎一般向用户提供两种查询途径 ,一
            是关键词检索 ,二是分类检索 。关键词搜索引擎
            存在诸如查准率低 、信息冗余大等缺点 。分类检
            索是以分类目录浏览方式提供信息查询途径 ,即
            网络分类目录 ,把各网站分门别类放入分层类目
            下 ,用户层层点击 ,逐渐缩小范围找到所需的网
            站 。目前目录搜索引擎大多采用人工分类 ,如以
            分类著称的 YAHOO , 还有新浪 、搜狐等门户网
            站 。虽然查准率提高了 ,却存在时效性差 、分类
            结果不一致 、数据库规模小等弊端 。针对以上问
    </body>
</html>